1.3.3 지능의 전제 조건: 진정한 일반 인공지능(AGI)으로 가기 위해 왜 신체(Body)가 필수적인가?

1.3.3 지능의 전제 조건: 진정한 일반 인공지능(AGI)으로 가기 위해 왜 신체(Body)가 필수적인가?

1. 서론: 데카르트의 유령과 기계 속의 마음

1.1 지능에 대한 오해와 환상

인류가 ’지능(Intelligence)’이라는 현상을 이해하고 재현하고자 노력해 온 역사는 수천 년에 달하지만, 현대 인공지능(AI) 연구의 초창기는 근본적인 철학적 오류 위에서 출발했다. 17세기 르네 데카르트(René Descartes)가 주창한 심신이원론(Mind-Body Dualism)은 마음(Res Cogitans)을 신체(Res Extensa)와 독립적인, 순수한 이성적 실체로 규정했다. 이 관점은 20세기 중반의 초기 컴퓨터 과학자들에게 그대로 계승되었다. 그들은 지능을 ’기호 조작(Symbol Manipulation)’과 ’논리 연산(Logical Computation)’의 동의어로 보았으며, 신체는 단지 데이터를 수집하는 입력 장치(Sensor)와 계산된 명령을 수행하는 출력 장치(Actuator)가 부착된 운송 수단(Vehicle)에 불과하다고 여겼다.

이러한 ‘전산주의(Computationalism)’ 패러다임 하에서 탄생한 것이 소위 ’좋은 구식 인공지능(GOFAI, Good Old-Fashioned AI)’이다. 체스를 두고, 수학 정리를 증명하며, 복잡한 논리 퍼즐을 푸는 AI는 빠르게 달성되었다. 그러나 역설적으로, 인간에게는 너무나 쉬운 일들—컵을 쥐고, 울퉁불퉁한 길을 걷고, 낯선 방에서 문을 찾는 일—은 기계에게 불가능에 가까운 난제임이 드러났다. 한스 모라벡(Hans Moravec)은 이를 두고 “어른에게 어려운 것은 기계에게 쉽고, 아이에게 쉬운 것은 기계에게 어렵다“는 ’모라벡의 역설(Moravec’s Paradox)’로 정식화했다.

21세기, 우리는 대규모 언어 모델(LLM)의 등장으로 또 다른 변곡점을 맞이했다. GPT-4나 Claude와 같은 모델들은 튜링 테스트를 무색하게 할 만큼 유창한 언어 능력을 보여준다. 그러나 이들은 여전히 ’신체 없는 지능(Disembodied Intelligence)’의 한계에 봉착해 있다. 그들은 “사과“라는 단어를 유창하게 사용하지만, 사과의 무게감, 아삭한 식감, 중력에 의해 떨어지는 물리적 현상을 체화하지 못한다. 이들에게 사과는 수많은 텍스트 데이터 속에서 통계적으로 인접한 벡터값의 집합일 뿐이다.1

본 장에서는 왜 신체가 AGI, 즉 인간과 대등하거나 그 이상의 범용성을 가진 지능을 구현하기 위해 선택이 아닌 필수 불가결한 전제 조건인지를 논증한다. 우리는 신경과학, 로봇공학, 인지과학, 그리고 최신 AI 연구 결과를 종합하여, 신체가 지능의 발생(Genesis), 발달(Development), 그리고 그 본질적인 구조(Structure)를 어떻게 결정짓는지 심층적으로 분석할 것이다.

1.2 신체성(Embodiment)의 정의와 범위

논의를 진행하기에 앞서, 우리가 말하는 ’신체’가 무엇인지 명확히 할 필요가 있다. 인공지능 맥락에서 신체성은 단순히 금속과 플라스틱으로 된 하드웨어를 의미하는 것에 그치지 않는다.

  • 물리적 신체성(Physical Embodiment): 실제 물리 법칙(중력, 마찰, 관성 등)의 지배를 받는 하드웨어 로봇.
  • 현상학적 신체성(Phenomenological Embodiment): 환경과 상호작용하며 ’자아’와 ’세계’의 경계를 설정하는 주체로서의 구조.
  • 사회적 신체성(Social Embodiment): 타자(Other agents)와의 상호작용을 통해 의사소통과 공감을 형성하는 매개체.2

본 보고서는 이 세 가지 차원을 모두 포괄하되, 특히 물리적 세계와의 인과적 상호작용(Causal Interaction)을 가능케 하는 물리적 신체성의 역할에 집중한다. 이는 최근 얀 르쿤(Yann LeCun)이 주장한 ’세계 모델(World Model)’의 구축과 로드니 브룩스(Rodney Brooks)의 ‘표상 없는 지능(Intelligence without Representation)’ 논쟁을 관통하는 핵심 고리이다.

2. 인식론적 난제: 상징 접지 문제와 의미의 부재

2.1 기호의 회전목마와 의미의 증발

디지털 컴퓨터는 본질적으로 기호 조작 기계이다. ’0’과 ‘1’, 혹은 텍스트 토큰들은 그 자체로는 아무런 의미를 내포하지 않는다. 스티븐 하나드(Stevan Harnad)는 1990년, “기호가 어떻게 외부 세계의 의미와 연결될 수 있는가?“라는 ’상징 접지 문제(Symbol Grounding Problem)’를 제기했다.

상상해 보라. 당신이 중국어를 전혀 모르는 상태에서 오직 중국어 사전만을 가지고 중국어를 배워야 한다고 가정하자. 당신이 모르는 단어 A를 찾으면, 사전은 이를 단어 B와 C로 설명한다. B를 찾으면 D와 E로 설명된다. 이 끊임없는 순환 속에서 당신은 기호들 간의 관계(Syntax)는 완벽하게 파악할 수 있을지 몰라도, 그 기호가 가리키는 실제 대상(Semantics)에는 영원히 도달할 수 없다. 이것이 현재 LLM이 처한 상황이다.3

안샤드 아민(Anshad Ameen) 등의 연구는 신체 없는 AI가 겪는 ’기호-실재 단절(Symbol-Reality Disconnect)’을 지적한다. 텍스트 데이터만으로 학습된 AI에게 “망치로 유리를 치면 깨진다“라는 문장은 통계적 패턴일 뿐, 물리적 충격, 파편의 튐, 소리, 비가역적인 파손이라는 실체적 경험과 연결되지 않는다.1 따라서 이들은 인과관계(Causality)를 이해하는 것이 아니라, 단어들의 공기(Co-occurrence) 확률을 계산하는 것에 불과하다.

2.2 중국어 방 논변의 현대적 재해석

존 서럴(John Searle)의 ‘중국어 방(Chinese Room)’ 사고실험은 오늘날 LLM의 한계를 정확히 예견했다. 방 안에 있는 사람(AI)이 매뉴얼(프로그램/가중치)에 따라 완벽한 중국어 답변을 내놓는다 하더라도, 그 사람은 중국어를 ’이해’한 것이 아니다.

최신 연구들은 이러한 철학적 논증을 실증적인 데이터로 뒷받침한다. ‘역전의 저주(Reversal Curse)’ 현상이 대표적이다.

  • 현상: LLM이 “A는 B이다(예: 톰 크루즈의 어머니는 메리 리 파이퍼이다)“를 학습했을 때, 자동적으로 “B는 A이다(예: 메리 리 파이퍼의 아들은 톰 크루즈이다)“라는 질문에 대답하지 못하는 현상이다.4
  • 원인: 인간은 대상을 물리적 공간 내의 실체로 인식하므로, A와 B의 관계를 공간적, 논리적으로 뒤집어(Symmetry) 이해하는 데 어려움이 없다. 그러나 텍스트 시퀀스라는 1차원적, 시간적 선형성에 갇힌 신체 없는 지능에게 정보는 방향성을 가진 문자열일 뿐, 조작 가능한 객체가 아니다.6
  • 함의: 신체적 경험을 통한 공간 구조의 내재화가 없다면, 가장 기초적인 논리적 추론조차 불완전할 수밖에 없다.

2.3 의미의 원천으로서의 감각 운동(Sensorimotor) 경험

의미(Meaning)는 어디서 오는가? 인지과학의 신체성 가설(Embodiment Hypothesis)은 의미가 뇌의 신경망 패턴이 아니라, 신체와 환경의 반복적인 상호작용인 ’감각 운동 유관성(Sensorimotor Contingencies)’에서 발생한다고 주장한다.7

예를 들어 ’부드럽다’라는 개념은 손끝의 촉각 센서가 표면을 쓸어낼 때(운동) 발생하는 진동 패턴의 변화(감각)와 연결되어 있다. 이 능동적인 ’쓸어냄(Sweeping)’이라는 신체적 행위 없이는 ’부드러움’이라는 개념은 텅 빈 기호에 불과하다. 롤프 파이퍼(Rolf Pfeifer)와 조쉬 봉가드(Josh Bongard)는 그들의 저서에서 “사고(Thinking)는 신체에 의해 구속되고 동시에 가능해진다“고 설파했다.8

3. 생물학적 증거: 진화는 왜 뇌를 만들었는가?

3.1 멍게의 교훈: 움직임이 없으면 마음도 없다

신경과학적 관점에서 뇌의 존재 이유는 명확하다. 생각하기 위해서가 아니라, 움직이기 위해서다. 가장 강력한 증거는 멍게(Sea Squirt)의 생애 주기에서 찾을 수 있다. 멍게의 유충은 뇌와 척색, 눈을 가지고 바닷속을 헤엄쳐 다니며 살 곳을 찾는다. 그러나 적당한 바위에 붙어 정착 생활(Sessile life)을 시작하는 순간, 멍게는 자신의 뇌와 신경계를 소화시켜 에너지원으로 써버린다.

더 이상 움직일 필요가 없을 때, 지능은 불필요한 비용이 된다. 이는 지능이 본질적으로 복잡한 물리적 환경 속에서 신체를 제어하고 생존을 도모하기 위한 진화적 적응의 산물임을 시사한다.3

3.2 발달 심리학과 신체적 놀이

인간의 지능 발달 과정 또한 신체성의 중요성을 역설한다. 피아제(Piaget)의 인지 발달 이론에 따르면, 영유아기의 ’감각 운동기(Sensorimotor Stage)’는 모든 고등 인지 기능의 기초가 된다. 아기는 걷다가 넘어지고, 블록을 쌓았다 무너뜨리며 중력, 관성, 인과관계의 물리적 법칙을 ‘몸으로’ 배운다. 피터 가덴포스(Peter Gärdenfors) 룬드 대학 교수는 2세 유아조차 현재의 AI가 갖지 못한 ‘인과적 사고(Causal Thinking)’ 능력을 가지고 있다고 지적한다.10

  • 유아: 친구를 깨물면 친구가 운다(원인-결과)는 것을 직접적 상호작용을 통해 배운다.
  • AI: 텍스트에서 “깨물다“와 “운다“의 상관관계를 학습하지만, 행위의 주체성(Agency)과 결과의 필연성을 이해하지 못한다.

셰피스(Schepis)는 출생이라는 사건을 “활력적 충격(Vital Shock)“으로 묘사하며, 신체가 겪는 한계와 고통, 저항이 의식과 지능을 형성하는 촉매제라고 주장한다.11 AGI가 진정으로 인간 수준의 이해에 도달하려면, 이처럼 환경과 부딪히며 성장하는 신체적 발달 과정(Developmental Pathway)을 거쳐야 한다.

비교 항목인간 유아 (Embodied)현재의 LLM (Disembodied)
학습 방식능동적 탐색, 조작, 놀이수동적 데이터 섭취 (Passive Ingestion)
오류의 결과물리적 고통, 실패, 즉각적 피드백텍스트 오류, 되돌리기 가능 (Undo)
지식의 형태감각 운동 도식 (Schema)통계적 상관관계 (Correlation)
인과성 이해개입(Intervention)을 통한 검증관찰(Observation)을 통한 추론

4. 로봇공학의 혁명: 계산주의를 넘어선 신체

4.1 전통적 AI의 실패와 프레임 문제

1970-80년대 로봇공학은 ‘감지-모델링-계획-행동(SMPA: Sense-Model-Plan-Act)’ 사이클에 갇혀 있었다. 로봇 쉐키(Shakey)와 같은 초기 로봇들은 1미터를 움직이기 위해 몇 시간 동안 멈춰 서서 카메라로 들어온 영상을 분석하고, 내부의 3차원 지도를 갱신하고, 경로를 계획해야 했다.

이 방식은 ’프레임 문제(Frame Problem)’라는 치명적인 난관에 봉착했다. 현실 세계는 무한히 복잡하고 끊임없이 변화하는데, AI는 어떤 정보가 중요하고 어떤 정보가 무시해도 좋은지(Frame)를 논리적으로 판단하느라 연산 능력을 소진해 버리는 것이다. 복잡한 표상(Representation)에 의존하는 지능은 현실의 속도를 따라갈 수 없었다.

4.2 로드니 브룩스와 포섭 구조 (Subsumption Architecture)

1991년, MIT의 로드니 브룩스는 “Intelligence without Representation(표상 없는 지능)“이라는 도발적인 논문을 통해 AI의 흐름을 뒤바꾸었다.12 그는 복잡한 중앙 처리 장치와 내부 모델을 제거하고, 대신 ’포섭 구조(Subsumption Architecture)’라는 계층적 반사 신경 시스템을 제안했다.

4.2.1 포섭 구조의 핵심 원리

브룩스의 로봇(예: 징기스, 앨런)은 중앙 제어 장치가 없다. 대신 독립적인 행동 모듈들이 층층이 쌓여 있다.

  • Layer 0 (생존): “장애물에 닿으면 멈춘다.” 가장 기초적인 층위로, 상위 층위의 명령보다 우선순위를 가진다.
  • Layer 1 (배회): “무작위로 돌아다닌다.” 장애물이 없을 때 작동한다.
  • Layer 2 (탐험): “멀리 있는 흥미로운 곳으로 간다.”

이 구조에서 상위 층위는 하위 층위의 기능을 억제(Inhibit)하거나 대체(Subsume)하면서 복잡한 행동을 창발시킨다.13 중요한 것은 각 모듈이 센서와 액추에이터에 직접 연결되어 있다는 점이다. 브룩스는 “세상은 그 자신의 가장 좋은 모델이다(The world is its own best model)“라고 주장했다. 굳이 내부에 세상의 복제본(모델)을 만들 필요 없이, 필요할 때마다 센서를 통해 세상을 직접 참조하면 된다는 것이다.12

이 접근법은 지능이 복잡한 계산이 아니라, 환경과의 실시간적이고 역동적인 상호작용에서 나온다는 사실을 증명했다. 브룩스는 곤충 수준의 지능조차 복잡한 기호 조작 없이 구현될 수 있음을 보여줌으로써, AGI가 단순히 더 큰 컴퓨터를 만드는 것이 아니라 더 나은 신체적 상호작용 방식을 찾는 것임을 시사했다.15

4.3 롤프 파이퍼와 형태학적 연산 (Morphological Computation)

취리히 대학의 롤프 파이퍼는 브룩스의 아이디어를 ’형태학적 연산(Morphological Computation)’이라는 개념으로 확장했다. 그는 뇌가 모든 것을 제어한다는 ’제어 중심주의’를 비판하며, 신체의 물리적 형태와 재질 자체가 계산의 일부를 수행한다고 주장했다.9

4.3.1 사례 연구: 수동 동적 보행 로봇 (Passive Dynamic Walker)

가장 극적인 예시는 ’수동 동적 보행 로봇’이다. 스티브 콜린스(Steve Collins) 등이 개발한 이 로봇은 모터도, 센서도, 컴퓨터도 없다. 오직 관절로 연결된 다리 구조물일 뿐이다. 그러나 약간 경사진 비탈길에 놓으면, 이 로봇은 중력과 다리의 진자 운동(Pendulum dynamics)만을 이용하여 놀랍도록 자연스럽고 인간적인 걸음걸이로 걸어 내려간다.17

  • 기존 로봇(Asimo 등): 걷기 위해 ZMP(Zero Moment Point)를 계산하고 각 관절 모터를 정밀 제어하는 데 엄청난 전력과 연산을 소모한다.
  • 수동 보행 로봇: 제어를 ’0’으로 줄이고, 그 역할을 신체의 기계적 설계와 중력(환경)에 ’위임(Off-loading)’했다.

4.3.2 저렴한 디자인 (Cheap Design)과 생태학적 균형

파이퍼는 이를 ‘저렴한 디자인(Cheap Design)’ 원칙이라 명명했다. 지능형 에이전트는 자신의 생태학적 틈새(Ecological Niche)에 존재하는 물리적 자원(중력, 마찰, 탄성 등)을 최대한 활용하여 정보 처리 비용을 절감해야 한다.17

신체는 뇌가 풀어야 할 문제의 복잡도를 획기적으로 낮춰주는 ’필터’이자 ’전처리기’이다. 부드러운 손가락 끝(Soft fingertips)은 물체를 잡을 때 복잡한 압력 제어 알고리즘 없이도 물체 표면 형상에 맞춰 변형되며 안정적인 파지를 가능하게 한다. AGI가 인간과 같은 효율성과 유연성을 가지려면, 실리콘 칩의 연산 능력뿐만 아니라 이러한 ’지능적인 신체(Intelligent Body)’를 반드시 갖춰야 한다.

5. 최신 AI 연구와 신체 부재의 한계: 통계를 넘어 인과로

5.1 수동적 학습의 한계: 램피넨의 연구

2023-2024년, 딥마인드와 여러 연구소에서 발표된 논문들은 거대 언어 모델과 같은 ’수동적 학습자(Passive Learner)’의 본질적 한계를 수학적으로 증명하기 시작했다. 램피넨(Lampinen) 등의 연구는 “관찰 데이터만으로는 인과 구조(Causal Structure)를 완전히 학습할 수 없다“는 것을 보여주었다.19

에이전트가 “스위치를 누르면 불이 켜진다“는 인과관계를 확신하려면, 단순히 스위치가 눌린 상태와 불이 켜진 상태가 공존하는 수많은 이미지를 보는 것만으로는 부족하다. 에이전트가 직접 스위치를 눌러보고(Intervention), 누르지 않았을 때와의 차이를 확인하는 과정이 필수적이다. 펄(Judea Pearl)의 인과 계층(Ladder of Causation)에서 보듯, ‘연상(Association)’ 단계인 1층을 넘어 ’개입(Intervention)’의 2층으로 올라가기 위해서는 물리적 행위가 가능한 신체가 필요하다.

5.2 얀 르쿤과 세계 모델 (World Model)

메타(Meta)의 수석 과학자 얀 르쿤(Yann LeCun)은 현재의 생성형 AI(Generative AI)가 진정한 지능으로 가는 길이 아니라고 단언한다. 그는 자기회귀(Auto-regressive) LLM이 텍스트의 다음 토큰을 예측하는 데에는 뛰어나지만, 물리적 세계의 배후에 있는 원리를 이해하지 못한다고 비판한다.21

르쿤이 제안하는 대안은 JEPA (Joint Embedding Predictive Architecture) 기반의 ’세계 모델’이다.

  • 추상적 예측: 픽셀 단위의 세세한 예측이 아니라, 사물의 상태와 관계를 추상적인 표현(Embedding) 수준에서 예측한다.
  • 행동-결과 시뮬레이션: “내가 이 행동을 하면 세상은 어떻게 변할까?“를 내부적으로 시뮬레이션한다.

이 세계 모델을 학습하기 위해서는 에이전트가 환경과 상호작용하며 자신의 행동이 초래하는 결과를 관찰하는 ‘능동적 지각(Active Perception)’ 과정이 필수적이다.23 신체 없는 AI는 세상을 ’구경’할 수만 있을 뿐, 세상을 ’실험’할 수 없기에 정교한 세계 모델을 구축할 수 없다.

5.3 물리적 추론 벤치마크의 실패 사례

최신 벤치마크 테스트 결과는 신체 없는 초거대 AI의 민낯을 드러낸다. 2024-2025년에 수행된 ABench-Physics 등의 평가에서, LLM들은 대학원 수준의 텍스트 추론 문제에서는 높은 점수를 받았지만, 기본적인 물리적 조작이나 도구 사용 문제에서는 참담한 실패를 맛보았다.25

  • 도구 사용 계획 실패: “곡면에 구멍을 뚫으려면 스팟 드릴(Spot drill)로 먼저 자리를 잡아야 한다“는 지식은 텍스트로 알고 있지만, 실제 공정 계획을 세울 때는 이를 누락하거나, 고정 장치(Fixture)가 공구의 경로를 막는 공간적 간섭 상황을 전혀 인지하지 못했다.26
  • 직관 물리학의 부재: 미끄러운 바닥과 거친 바닥에서 물체가 얼마나 멀리 미끄러질지를 예측하는 단순한 문제에서도 시뮬레이션 도움 없이는 무작위 추측에 가까운 오답률을 보였다.28

이는 AI가 텍스트로 된 ’서술적 지식(Descriptive Knowledge)’은 가지고 있으나, 신체적 경험을 통해 체화된 ’절차적 지식(Procedural Knowledge)’과 ’직관적 물리학(Intuitive Physics)’은 결여되어 있음을 보여준다.

6. 구현된 AGI (Embodied AGI)를 향한 로드맵

6.1 시뮬레이션에서 현실로 (Sim-to-Real)

이러한 한계를 극복하기 위해 최근 AI 연구는 가상 시뮬레이션 환경(Isaac Sim, Habitat, MuJoCo 등)을 적극 활용하고 있다.7 시뮬레이터는 AI에게 가상의 신체를 부여하여 수십억 번의 시행착오를 안전하고 빠르게 경험하게 한다. 그러나 ’현실의 간극(Sim-to-Real Gap)’은 여전히 큰 숙제이다. 시뮬레이션은 현실의 복잡성(마모, 열팽창, 센서 노이즈, 예측 불가능한 인간의 개입)을 완벽히 모사할 수 없다.1

결국 시뮬레이션에서 학습된 ’지능의 씨앗’은 현실 세계의 로봇 하드웨어에 이식되어 ’현실의 검증’을 거쳐야 한다.

6.2 파운데이션 모델과 로봇의 융합 (VLA 모델)

가장 유망한 접근법은 거대 언어/비전 모델(VLM)을 로봇의 제어 정책과 결합하는 ‘비전-언어-행동(VLA: Vision-Language-Action)’ 모델이다.30

  • 두뇌(Foundation Model): “부엌을 치워라“와 같은 추상적 명령을 이해하고, 상식(Common Sense)을 바탕으로 작업을 분해한다. (예: 썩은 사과는 버리고, 컵은 싱크대로).
  • 신체(Embodied Policy): 로봇 팔의 관절을 제어하여 실제로 물건을 집고 이동시킨다.

이 융합 모델에서 신체는 LLM의 환각(Hallucination)을 억제하는 ‘접지 닻(Grounding Anchor)’ 역할을 한다. 로봇이 실제로 물건을 집으려다 실패하면, 그 즉시 물리적 피드백이 발생하여 AI의 잘못된 믿음을 교정한다. 텍스트 생성에서는 거짓말을 해도 티가 안 날 수 있지만, 물리 세계에서는 컵을 놓치면 즉시 깨진다. 이 ’비가역적 결과’가 지능을 정직하고 정확하게 만든다.

6.3 사회적 상호작용과 마음 이론 (Theory of Mind)

마지막으로, 신체는 타자의 마음을 이해하는 ’사회적 지능’의 기반이다. ’거울 뉴런(Mirror Neuron)’의 발견이 시사하듯, 인간은 타인의 행동을 관찰할 때 자신의 신체적 운동 영역을 시뮬레이션함으로써 타인의 의도를 파악한다.2 “저 사람이 무거운 짐을 들고 찡그린다“는 시각 정보는 “나도 무거운 것을 들 때 힘들었다“는 신체적 경험과 연결되어 ’도와줘야겠다’는 공감과 예측을 낳는다. 신체가 없는 AI는 타인을 텍스트 생성 패턴으로만 이해할 뿐, ’나와 같은 고통과 제약을 가진 존재’로 인식할 수 없다. 진정한 의미의 의사소통과 협업을 위해서는 서로의 신체적 제약을 공유하는 공감대가 필수적이다.

7. 결론: 신체는 지능의 구속이자 가능성이다

1.3.3절의 논의를 종합하면, 신체는 AGI 구현을 위한 부가적인 옵션이 아니라 **필수 불가결한 전제 조건(Prerequisite)**이라는 결론에 도달한다.

  1. 존재론적 근거: 지능은 진공 속에서 연산하는 기계가 아니라, 환경 속에서 생존하고 적응하는 유기체의 특성이다. 신체 없이는 ’나(Self)’와 ’세계(World)’의 구분이 없으며, 주체성(Agency)도 발생하지 않는다.
  2. 인식론적 근거: 신체적 상호작용(개입) 없이는 기호에 의미를 부여하는 ’접지(Grounding)’가 불가능하며, 상관관계를 넘어선 ’인과관계(Causality)’를 학습할 수 없다.
  3. 공학적 근거: 신체는 계산 복잡도를 낮추는 형태학적 연산 장치이며, 현실 세계의 물리적 피드백을 통해 AI의 오류와 환각을 교정하는 가장 강력한 학습 도구이다.

따라서 우리는 “생각하기 때문에 존재하는(Cogito, ergo sum)” 데카르트적 AI가 아니라, “세상에 존재하며 행동하는(I act, therefore I am)” 신체화된 AGI를 지향해야 한다. 진정한 지능은 슈퍼컴퓨터의 서버실이 아니라, 넘어지고 부딪히며 세상을 배우는 로봇의 거친 손끝에서 탄생할 것이다. 신체가 주는 제약(Constraint)—에너지의 한계, 공간의 점유, 시간의 불가역성—이야말로 역설적으로 지능을 무한한 추상에서 끌어내려 실재하는 세계 속에 뿌리내리게 하는 원동력이다.

7.1 주요 개념 요약 (Key Concepts Summary)

핵심 개념설명신체성의 역할
상징 접지 문제 (Symbol Grounding Problem)기호(단어)가 실체적 의미와 연결되지 못하고 기호끼리만 순환하는 문제.신체적 감각-운동 경험(Sensorimotor experience)을 통해 기호를 물리적 대상에 ’접지’시켜 의미를 부여함.
포섭 구조 (Subsumption Architecture)복잡한 중앙 모델 대신, 감각-행동의 직접적인 반사 층위(Layer)를 쌓아 올려 지능을 구현하는 방식 (R. Brooks).지능이 표상(Representation)이 아니라 환경과의 실시간 신체적 상호작용에서 창발됨을 입증.
형태학적 연산 (Morphological Computation)신체의 물리적 구조(형태, 재질, 배치)가 뇌를 대신해 제어 및 연산 기능을 수행하는 현상 (R. Pfeifer).뇌의 계산 부하를 신체와 환경으로 분산(Off-loading)시켜 에너지 효율적이고 자연스러운 동작을 가능케 함.
세계 모델 (World Model)에이전트가 자신의 행동 결과와 환경의 변화를 예측하기 위해 구축하는 내부 시뮬레이션 모델 (Y. LeCun).수동적 관찰이 아닌 능동적 개입(Intervention)과 신체적 피드백을 통해서만 정교한 인과관계 모델 학습 가능.
역전의 저주 (Reversal Curse)“A는 B“를 학습해도 “B는 A“를 추론하지 못하는 LLM의 논리적 결함.공간적/물리적 대칭성을 체화하지 못한 텍스트 기반 학습의 한계. 신체적 공간 지각이 논리적 가역성의 기초임.
능동적 지각 (Active Perception)지각을 수동적 수용이 아닌, 정보를 얻기 위한 능동적 행위로 보는 관점.눈을 움직이고, 물체를 만지고 조작하는 신체적 행위를 통해 불확실성을 줄이고 정보를 획득함.

8. 참고 자료

  1. Beyond Digital: Why Embodied AI Is the Essential Next Frontier - Anshad Ameenza, https://anshadameenza.com/blog/technology/embodied-ai-beyond-digital-frontier/
  2. Mutual human-robot understanding for a robot-enhanced society: the crucial development of shared embodied cognition - Frontiers, https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1608014/full
  3. Embodiment as a Necessary A Priori of General Intelligence - DK Statistical Consulting, https://dkstatisticalconsulting.com/wp-content/uploads/2019/10/The_Necessity_of_Embodiment_FINAL.pdf
  4. The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A” - arXiv, https://arxiv.org/html/2309.12288v4
  5. Towards a Theoretical Understanding of the ‘Reversal Curse’ via Training Dynamics - NIPS papers, https://proceedings.neurips.cc/paper_files/paper/2024/file/a4b95476f673e6e538f80862f622ba2f-Paper-Conference.pdf
  6. Reverse Training to Nurse the Reversal Curse - arXiv, https://arxiv.org/html/2403.13799v1
  7. A Call for Embodied AI - arXiv, https://arxiv.org/html/2402.03824v3
  8. How the Body Shapes the Way We Think – Metapsychology Online …, https://metapsychology.net/index.php/book-review/how-the-body-shapes-the-way-we-think/
  9. [PDF] How the body shapes the way we think - a new view on intelligence, https://www.semanticscholar.org/paper/How-the-body-shapes-the-way-we-think-a-new-view-on-Pfeifer-Bongard/2910099b7a7c555af9f14bfb2bc20e9475d0588f
  10. AI lacks common sense – why programs cannot think - Lund University, https://www.lunduniversity.lu.se/article/ai-lacks-common-sense-why-programs-cannot-think
  11. Embodiment as Constraint: Reframing the Path to Artificial General Intelligence - Medium, https://medium.com/@sschepis/embodiment-as-constraint-reframing-the-path-to-artificial-general-intelligence-ce95fc13cd9d
  12. Intelligence without Representation: A Historical Perspective - MDPI, https://www.mdpi.com/2079-8954/8/3/31
  13. Intelligence without representation* - People, https://people.csail.mit.edu/brooks/papers/representation.pdf
  14. Intelligence Without Representation | by Kyle - Medium, https://medium.com/@siwaratlaoprom/intelligence-without-representation-c9a46d6b87c3
  15. Is there a future for AI without representation? - arXiv, https://arxiv.org/pdf/2503.18955
  16. The dancing, walking, and hopping robot Stumpy. (a) Photograph of the… | Download Scientific Diagram - ResearchGate, https://www.researchgate.net/figure/The-dancing-walking-and-hopping-robot-Stumpy-a-Photograph-of-the-robot-b_fig3_302380071
  17. New Robotics: Design Principles for Intelligent Systems, https://meclab.w3.uvm.edu/papers/2005_ALife_Pfeifer.pdf
  18. Efficient bipedal robots based on passive-dynamic walkers - Andy Ruina, http://ruina.tam.cornell.edu/hplab/downloads/walking_papers/CollinsRuinaTedrakeWisse/Collinsetal23.pdf
  19. [Quick Review] Passive learning of active causal strategies in agents and language models, https://liner.com/review/passive-learning-of-active-causal-strategies-in-agents-and-language
  20. Passive learning of active causal strategies in agents and language models - NeurIPS, https://proceedings.neurips.cc/paper_files/paper/2023/file/045c87def0c02e3ad0d3d849766d7f1e-Paper-Conference.pdf
  21. Tech leaders eye world models as link to smarter AI - IBM, https://www.ibm.com/think/news/world-models-smarter-ai
  22. World Models: The Next Leap Beyond LLMs | by Graison Thomas | Medium, https://medium.com/@graison/world-models-the-next-leap-beyond-llms-012504a9c1e7
  23. Opinion: How Can Causal AI Benefit World Models? - OpenReview, https://openreview.net/pdf/3c966d2b362c050eee981dbcd52770444f3786f8.pdf
  24. Understanding World or Predicting Future? A Comprehensive Survey of World Models, https://arxiv.org/html/2411.14499v1
  25. ABench-Physics: Benchmarking Physical Reasoning in LLMs via High-Difficulty and Dynamic Physics Problems - arXiv, https://arxiv.org/html/2507.04766v1
  26. Frontier AI Models Still Fail at Basic Physical Tasks: A Manufacturing Case Study, https://adamkarvonen.github.io/machine_learning/2025/04/13/llm-manufacturing-eval.html
  27. Frontier AI Models Still Fail at Basic Physical Tasks: A Manufacturing Case Study, https://www.lesswrong.com/posts/r3NeiHAEWyToers4F/frontier-ai-models-still-fail-at-basic-physical-tasks-a
  28. SimLM: Can Language Models Infer Parameters of Physical Systems? - arXiv, https://arxiv.org/html/2312.14215v2
  29. Embodied AI with Common-Sense, https://www.research.unipd.it/retrieve/5fe9b57d-db22-450a-8595-e6421b1baced/Embodied%20AI%20with%20Common%20Sense.pdf
  30. Embodiment is Indispensable for AGI · keerthanapg, https://keerthanapg.com/tech/embodiment-agi/
  31. Toward Embodied AGI: A Review of Embodied AI and the Road Ahead - arXiv, https://arxiv.org/html/2505.14235v1
  32. Gödelian embodied self-referential genomic intelligence: lessons for AI and AGI from the genomic blockchain - PMC - PubMed Central, https://pmc.ncbi.nlm.nih.gov/articles/PMC12477408/
  33. How the Body Shapes the Way We Think: a New View of Intelligence - ResearchGate, https://www.researchgate.net/publication/220695688_How_the_Body_Shapes_the_Way_We_Think_a_New_View_of_Intelligence
  34. Two approaches to robot building. (a) The passive dynamic walker by… - ResearchGate, https://www.researchgate.net/figure/Two-approaches-to-robot-building-a-The-passive-dynamic-walker-by-Steve-Collins_fig5_7925620
  35. Subsumption architecture - Wikipedia, https://en.wikipedia.org/wiki/Subsumption_architecture
  36. Rodney Brooks Quotes - BrainyQuote, https://www.brainyquote.com/authors/rodney-brooks-quotes
  37. The Ontological Gap: A Philosophical Analysis of World Models, Causal Structure, and the Limits of Synthetic Representation | by Ratiomachina | Nov, 2025 | Medium, https://medium.com/@luan.home/the-ontological-gap-a-philosophical-analysis-of-world-models-causal-structure-and-the-limits-of-470a805e9376
  38. Embodied AI Agents: Modeling the World - arXiv, https://arxiv.org/html/2506.22355v3
  39. JEPA — Joint Embedding Predictive Architecture | by Saumya Pandey | Nov, 2025, https://medium.com/@saumya.april1/jepa-joint-embedding-predictive-architecture-5b1ee798c8b7
  40. Thoughts on Yann Lecun’s world model approach?, https://www.reddit.com/r/singularity/comments/1ozg0gs/thoughts_on_yann_lecuns_world_model_approach/
  41. Beyond Next-Token Prediction: Yann LeCun’s JEPA and the Quest for AI Common Sense — Where…, https://medium.com/@ilyurek/beyond-next-token-prediction-yann-lecuns-jepa-and-the-quest-for-ai-common-sense-where-92150bed9dfd
  42. The Anatomy of JEPA: The Architecture Behind embedded Predictive Representation Learning | by Tyler Frink | Medium, https://medium.com/@frinktyler1445/the-anatomy-of-jepa-the-architecture-behind-embedded-predictive-representation-learning-994bfa0bffe0